
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂无需谷歌“钞能力”,两位清华校友强强联合,直接让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平。
无需谷歌“钞能力”,两位清华校友强强联合,直接让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平。
网友:Deep Think 简直太疯狂了。本周五,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,并将全版本的 Gemini 2.5 Deep Think 模型(用于 IMO 竞赛)提供给部分数学家使用。
昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。
谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。
就在昨天,来自UCLA的两位研究者黄溢辰和杨林做了一件让整个AI圈都震惊的事。他们用Google的Gemini 2.5 Pro模型,在2025年国际数学奥林匹克竞赛中拿下了金牌水平的成绩,6道题解对了5道。这可不是什么花架子,IMO被公认为是测试AI推理能力的终极试金石,因为它需要的不仅仅是计算,更需要创造性思维和严密的逻辑推理。
谷歌搜索迎来三大AI革新:集成最强Gemini 2.5 Pro模型、Deep Search功能随便用、最引人注目的是AI代打电话功能。目前功能在美国上线,未来将全球推广。
刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。
只需一眨眼的功夫,Mercury 就把任务完成了。「我们非常高兴地推出 Mercury,这是首款专为聊天应用量身定制的商业级扩散 LLM!Mercury 速度超快,效率超高,能够为对话带来实时响应,就像 Mercury Coder 为代码带来的体验一样。」
AI也会“闹自杀”了?
谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》?